Day-07-斷詞

第 11 屆 iThome 鐵人賽

DAY 6

AI & Data

人工智慧 X 自然語言處理 X 資料科學系列第 7 篇

11th鐵人賽

肯德基爺爺

2019-09-09 13:48:47

2534 瀏覽

分享至

構成語句最基本為字詞，使用詞嵌入將字詞轉為詞向量後，為了從文本數據得到顯著而有用的資訊，需要的是探索支援自然語言處理的工具與嘗試，例如基於 python 的主題模型函式庫 gensim ，是 python 做自然語言處理必備的工具之一。

jieba 中文斷詞所使用的演算法是基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況，然後使用動態規劃（Dynamic programming）算法來找出最大機率的路徑，這個路徑就是基於詞頻的最大斷詞結果。對於辨識新詞（字典詞庫中不存在的詞）則使用了 HMM 模型（Hidden Markov Model）及 Viterbi 算法來辨識出來[1]。

Reference